Transformer 架构
2017 Google 论文 "Attention Is All You Need" 提出的神经网络架构,是 GPT / Claude / Gemini / Llama / DeepSeek 等所有现代 大语言模型 的算法基石。2024 全球基础模型市场 $85 亿中 Transformer 模型占 66.4%($56.4 亿)。
定义
Transformer 是基于自注意力机制(Self-Attention)的神经网络架构,相比 RNN/LSTM 解决了长程依赖建模和并行计算两大瓶颈,使大规模预训练模型成为可能。
技术细节
- Self-Attention — 序列内每个 token 直接关注所有其他 token
- Multi-Head Attention — 多个注意力头并行学习不同关系
- Position Encoding — 注入位置信息(无递归结构)
- Decoder-Only / Encoder-Only / Encoder-Decoder 三种变体
- 现代演进:FlashAttention / RoPE / GQA / MoE 等优化
主要玩家
- Google — 论文原作(Vaswani 等)
- OpenAI — GPT 系列 Decoder-Only 路线
- Meta — Llama 开源 Transformer
- DeepSeek — MLA + MoE Transformer 变体
演进历史
- 2017-06 论文发表(Vaswani et al., NeurIPS)
- 2018 BERT(Encoder-Only)+ GPT-1(Decoder-Only)
- 2020 GPT-3 验证 scaling laws
- 2022 后:MoE / FlashAttention / RoPE 等优化
- 2024 推理时计算(o1 / R1)引入新范式
在 AI 产业链中的角色
Transformer 是 4-02-模型工厂 的算法基础设施。理解 Transformer 即理解现代 AI;其架构选择直接影响训练成本 / 推理速度 / 模型能力。
相关概念
∈ belongs_to::4-02-模型工厂